「李宏毅机器学习」学习笔记-Tips for Training DNN
Do not always blame Overfitting
我们不能只看到在Testing Data上56层Neural Network效果没有20层Neural Network效果好,就说这是Overfitting,因为有可能在Training Data上56层Neural Network效果也没有20层Neural Network效果好,这时候就是56层Neural Network没有训练好。
Different approaches for different problems.e.g. dropout for good results on testing data.
Vanishing Gradient Problem
每通过一次sigmoid function,变化就会衰减一次,网络越深,衰减次数就越多。
ReLU
Maxout
ReLU is a special cases of Maxout. More than ReLU.
Training
RMSProp
Hard to find optimal network parameters
其实,没有那么多local minima,如果是local minima,就要求每一个维都要是山谷的谷底,假设山谷谷底出现的几率是$P$,因为Network有非常多的参数,假设有一千个参数,每一个参数都要是山谷的谷底,出现的概率就是$P^{1000}$,Network越大,参数越多,出现的几率就越低。所以,local minima在一个很大的Neural Network里面不常见,所以卡主的地方八成是global minima或接近global minima的地方。
Momentum
Adam
Early Stopping
Regularization
L1与L2同样是把参数变小,但做的事情是略有不同的。使用L1的时候,每次都减掉固定的值;使用L2的时候,每次都乘上一个小于1固定的值。所以,如果$w$是一个很正的值(比如一百万),对L2来说,乘上0.99等于$w$减掉一个很大的值,但对L1来说,不管$w$是一百万还是0.1,$w$减掉的值都是固定的。用L1做training得到的结果会比较sparse,train出来的参数里面会有很多接近0的值,也有很大的值。用L2的话,train出来的值是平均的,都比较小。
Dropout
Intuitive Reason
Dropout is a kind of ensemble
如果本博文对您有帮助,可以赞助支持一波博主~
推荐阅读
- 本文链接:https://blueschang.github.io/2018/11/09/「李宏毅机器学习」学习笔记-Tips for Training DNN/
- 版权声明:本博客所有文章除特别声明外,均采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 许可协议。转载请注明出处!